{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.\n",
      "  setattr(self, word, getattr(machar, word).flat[0])\n",
      "/home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.\n",
      "  return self._float_to_str(self.smallest_subnormal)\n",
      "/home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/numpy/core/getlimits.py:549: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.\n",
      "  setattr(self, word, getattr(machar, word).flat[0])\n",
      "/home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/numpy/core/getlimits.py:89: UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.\n",
      "  return self._float_to_str(self.smallest_subnormal)\n",
      "Building prefix dict from the default dictionary ...\n",
      "Loading model from cache /tmp/jieba.cache\n",
      "Loading model cost 0.950 seconds.\n",
      "Prefix dict has been built successfully.\n"
     ]
    }
   ],
   "source": [
    "from mindnlp.utils import http_get\n",
    "\n",
    "url = 'https://download.mindspore.cn/toolkits/mindnlp/dataset/text_generation/nlpcc2017/train_with_summ.txt'\n",
    "path = http_get(url, './')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "50000"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from mindspore.dataset import TextFileDataset\n",
    "\n",
    "dataset = TextFileDataset(str(path), shuffle=False)\n",
    "dataset.get_dataset_size()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "train_dataset, test_dataset = dataset.split([0.9, 0.1], randomize=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "# article: [CLS] xxxxx [SEP]\n",
    "# summary: [CLS] xxxxx [SEP]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "import json\n",
    "import numpy as np\n",
    "\n",
    "def process_dataset(dataset, tokenizer, batch_size=6, max_seq_len=1024, shuffle=False):\n",
    "    def read_map(text):\n",
    "        data = json.loads(text.tobytes())\n",
    "        return np.array(data['article']), np.array(data['summarization'])\n",
    "\n",
    "    def merge_and_pad(article, summary):\n",
    "        tokenized = tokenizer(text=article, text_pair=summary,\n",
    "                              padding='max_length', truncation='only_first', max_length=max_seq_len)\n",
    "        return tokenized['input_ids'], tokenized['input_ids']\n",
    "    \n",
    "    dataset = dataset.map(read_map, 'text', ['article', 'summary'])\n",
    "    dataset = dataset.map(merge_and_pad, ['article', 'summary'], ['input_ids', 'labels'])\n",
    "\n",
    "    dataset = dataset.batch(batch_size)\n",
    "    if shuffle:\n",
    "        dataset = dataset.shuffle(batch_size)\n",
    "\n",
    "    return dataset"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/home/lvyufeng/miniconda3/envs/mindspore/lib/python3.9/site-packages/mindnlp/transformers/tokenization_utils_base.py:1526: FutureWarning: `clean_up_tokenization_spaces` was not set. It will be set to `True` by default. This behavior will be depracted in transformers v4.45, and will be then set to `False` by default. For more details check this issue: https://github.com/huggingface/transformers/issues/31884\n",
      "  warnings.warn(\n"
     ]
    }
   ],
   "source": [
    "from mindnlp.transformers import BertTokenizer\n",
    "\n",
    "tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "train_dataset = process_dataset(train_dataset, tokenizer, batch_size=4, max_seq_len=300)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[Tensor(shape=[4, 300], dtype=Int64, value=\n",
       " [[ 101, 1724, 3862 ... 3299, 2419,  102],\n",
       "  [ 101,  704, 3173 ... 3341, 3975,  102],\n",
       "  [ 101, 1079, 2159 ... 1745, 8021,  102],\n",
       "  [ 101, 1355, 2357 ...    0,    0,    0]]),\n",
       " Tensor(shape=[4, 300], dtype=Int64, value=\n",
       " [[ 101, 1724, 3862 ... 3299, 2419,  102],\n",
       "  [ 101,  704, 3173 ... 3341, 3975,  102],\n",
       "  [ 101, 1079, 2159 ... 1745, 8021,  102],\n",
       "  [ 101, 1355, 2357 ...    0,    0,    0]])]"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "next(train_dataset.create_tuple_iterator())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "21128"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(tokenizer)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "from mindnlp.core.nn import functional as F\n",
    "from mindnlp.transformers import GPT2LMHeadModel\n",
    "\n",
    "class GPT2ForSummarization(GPT2LMHeadModel):\n",
    "    def forward(\n",
    "        self,\n",
    "        input_ids = None,\n",
    "        attention_mask = None,\n",
    "        labels = None,\n",
    "    ):\n",
    "        outputs = super().forward(input_ids=input_ids, attention_mask=attention_mask)\n",
    "        shift_logits = outputs.logits[..., :-1, :]\n",
    "        shift_labels = labels[..., 1:]\n",
    "        # Flatten the tokens\n",
    "        loss = F.cross_entropy(shift_logits.view(-1, shift_logits.shape[-1]), shift_labels.view(-1), ignore_index=tokenizer.pad_token_id)\n",
    "        return (loss,)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "num_epochs = 5\n",
    "learning_rate = 1.5e-4\n",
    "warmup_steps = 2000\n",
    "max_grad_norm = 1.0\n",
    "num_training_steps = num_epochs * train_dataset.get_dataset_size()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[MS_ALLOC_CONF]Runtime config:  enable_vmm:True  vmm_align_size:2MB\n"
     ]
    }
   ],
   "source": [
    "from mindspore import nn\n",
    "from mindnlp.transformers import GPT2Config, GPT2LMHeadModel\n",
    "\n",
    "config = GPT2Config(vocab_size=len(tokenizer), bos_token_id=tokenizer.cls_token_id, eos_token_id=tokenizer.pad_token_id)\n",
    "model = GPT2ForSummarization(config)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "number of model parameters: 102068736\n"
     ]
    }
   ],
   "source": [
    "# 记录模型参数数量\n",
    "print('number of model parameters: {}'.format(model.num_parameters()))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "from mindnlp.engine import TrainingArguments\n",
    "\n",
    "training_args = TrainingArguments(\n",
    "    output_dir=\"gpt2_summarization\",\n",
    "    save_steps=train_dataset.get_dataset_size(),\n",
    "    save_total_limit=3,\n",
    "    logging_steps=1000,\n",
    "    max_steps=num_training_steps,\n",
    "    learning_rate=learning_rate,\n",
    "    max_grad_norm=max_grad_norm,\n",
    "    warmup_steps=warmup_steps\n",
    "    \n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "from mindnlp.engine import Trainer\n",
    "\n",
    "trainer = Trainer(\n",
    "    model=model,\n",
    "    args=training_args,\n",
    "    train_dataset=train_dataset,\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "71eeb16d0b1047238cad46e1ff8add81",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "  0%|                                                                              | 0/56250 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'loss': 6.7149, 'learning_rate': 7.5e-05, 'epoch': 0.09}\n",
      "{'loss': 5.1275, 'learning_rate': 0.00015, 'epoch': 0.18}\n",
      "{'loss': 4.6146, 'learning_rate': 0.00014723502304147463, 'epoch': 0.27}\n",
      "{'loss': 4.3565, 'learning_rate': 0.0001444700460829493, 'epoch': 0.36}\n",
      "{'loss': 4.1458, 'learning_rate': 0.00014170506912442396, 'epoch': 0.44}\n",
      "{'loss': 4.0208, 'learning_rate': 0.0001389400921658986, 'epoch': 0.53}\n",
      "{'loss': 3.8927, 'learning_rate': 0.00013617511520737325, 'epoch': 0.62}\n",
      "{'loss': 3.782, 'learning_rate': 0.00013341013824884793, 'epoch': 0.71}\n",
      "{'loss': 3.7115, 'learning_rate': 0.00013064516129032258, 'epoch': 0.8}\n",
      "{'loss': 3.6222, 'learning_rate': 0.00012788018433179722, 'epoch': 0.89}\n",
      "{'loss': 3.5675, 'learning_rate': 0.0001251152073732719, 'epoch': 0.98}\n",
      "{'loss': 3.4792, 'learning_rate': 0.00012235023041474655, 'epoch': 1.07}\n",
      "{'loss': 3.4541, 'learning_rate': 0.00011958525345622118, 'epoch': 1.16}\n",
      "{'loss': 3.3645, 'learning_rate': 0.00011682027649769584, 'epoch': 1.24}\n",
      "{'loss': 3.303, 'learning_rate': 0.0001140552995391705, 'epoch': 1.33}\n",
      "{'loss': 3.23, 'learning_rate': 0.00011129032258064515, 'epoch': 1.42}\n",
      "{'loss': 3.1675, 'learning_rate': 0.0001085253456221198, 'epoch': 1.51}\n",
      "{'loss': 3.129, 'learning_rate': 0.00010576036866359445, 'epoch': 1.6}\n",
      "{'loss': 3.0438, 'learning_rate': 0.00010299539170506912, 'epoch': 1.69}\n",
      "{'loss': 3.0106, 'learning_rate': 0.00010023041474654377, 'epoch': 1.78}\n",
      "{'loss': 2.9562, 'learning_rate': 9.746543778801842e-05, 'epoch': 1.87}\n",
      "{'loss': 2.9342, 'learning_rate': 9.470046082949308e-05, 'epoch': 1.96}\n",
      "{'loss': 2.8837, 'learning_rate': 9.193548387096774e-05, 'epoch': 2.04}\n",
      "{'loss': 2.8617, 'learning_rate': 8.917050691244239e-05, 'epoch': 2.13}\n",
      "{'loss': 2.8228, 'learning_rate': 8.640552995391704e-05, 'epoch': 2.22}\n",
      "{'loss': 2.7945, 'learning_rate': 8.36405529953917e-05, 'epoch': 2.31}\n",
      "{'loss': 2.7512, 'learning_rate': 8.087557603686635e-05, 'epoch': 2.4}\n",
      "{'loss': 2.7209, 'learning_rate': 7.811059907834101e-05, 'epoch': 2.49}\n",
      "{'loss': 2.7126, 'learning_rate': 7.534562211981567e-05, 'epoch': 2.58}\n",
      "{'loss': 2.6697, 'learning_rate': 7.258064516129032e-05, 'epoch': 2.67}\n",
      "{'loss': 2.6448, 'learning_rate': 6.981566820276496e-05, 'epoch': 2.76}\n",
      "{'loss': 2.6129, 'learning_rate': 6.705069124423963e-05, 'epoch': 2.84}\n",
      "{'loss': 2.5819, 'learning_rate': 6.428571428571427e-05, 'epoch': 2.93}\n",
      "{'loss': 2.5786, 'learning_rate': 6.152073732718894e-05, 'epoch': 3.02}\n",
      "{'loss': 2.5437, 'learning_rate': 5.875576036866359e-05, 'epoch': 3.11}\n",
      "{'loss': 2.5482, 'learning_rate': 5.5990783410138245e-05, 'epoch': 3.2}\n",
      "{'loss': 2.4906, 'learning_rate': 5.32258064516129e-05, 'epoch': 3.29}\n",
      "{'loss': 2.49, 'learning_rate': 5.0460829493087554e-05, 'epoch': 3.38}\n",
      "{'loss': 2.4385, 'learning_rate': 4.769585253456221e-05, 'epoch': 3.47}\n",
      "{'loss': 2.4352, 'learning_rate': 4.493087557603686e-05, 'epoch': 3.56}\n",
      "{'loss': 2.4096, 'learning_rate': 4.216589861751152e-05, 'epoch': 3.64}\n",
      "{'loss': 2.3852, 'learning_rate': 3.9400921658986166e-05, 'epoch': 3.73}\n",
      "{'loss': 2.373, 'learning_rate': 3.663594470046083e-05, 'epoch': 3.82}\n",
      "{'loss': 2.3418, 'learning_rate': 3.387096774193548e-05, 'epoch': 3.91}\n",
      "{'loss': 2.3212, 'learning_rate': 3.110599078341014e-05, 'epoch': 4.0}\n",
      "{'loss': 2.3079, 'learning_rate': 2.8341013824884788e-05, 'epoch': 4.09}\n",
      "{'loss': 2.3192, 'learning_rate': 2.5576036866359446e-05, 'epoch': 4.18}\n",
      "{'loss': 2.2663, 'learning_rate': 2.28110599078341e-05, 'epoch': 4.27}\n",
      "{'loss': 2.267, 'learning_rate': 2.0046082949308755e-05, 'epoch': 4.36}\n",
      "{'loss': 2.2268, 'learning_rate': 1.728110599078341e-05, 'epoch': 4.44}\n",
      "{'loss': 2.223, 'learning_rate': 1.4516129032258063e-05, 'epoch': 4.53}\n",
      "{'loss': 2.2126, 'learning_rate': 1.1751152073732718e-05, 'epoch': 4.62}\n",
      "{'loss': 2.1853, 'learning_rate': 8.986175115207372e-06, 'epoch': 4.71}\n",
      "{'loss': 2.17, 'learning_rate': 6.221198156682027e-06, 'epoch': 4.8}\n",
      "{'loss': 2.1599, 'learning_rate': 3.4562211981566817e-06, 'epoch': 4.89}\n",
      "{'loss': 2.1658, 'learning_rate': 6.912442396313363e-07, 'epoch': 4.98}\n",
      "{'train_runtime': 20920.7126, 'train_samples_per_second': 21.51, 'train_steps_per_second': 2.689, 'train_loss': 2.9701874880642363, 'epoch': 5.0}\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "TrainOutput(global_step=56250, training_loss=2.9701874880642363, metrics={'train_runtime': 20920.7126, 'train_samples_per_second': 21.51, 'train_steps_per_second': 2.689, 'train_loss': 2.9701874880642363, 'epoch': 5.0})"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "trainer.train()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "def process_test_dataset(dataset, tokenizer, batch_size=1, max_seq_len=1024, max_summary_len=100):\n",
    "    def read_map(text):\n",
    "        data = json.loads(text.tobytes())\n",
    "        return np.array(data['article']), np.array(data['summarization'])\n",
    "\n",
    "    def pad(article):\n",
    "        tokenized = tokenizer(text=article, truncation=True, max_length=max_seq_len-max_summary_len)\n",
    "        return tokenized['input_ids']\n",
    "\n",
    "    dataset = dataset.map(read_map, 'text', ['article', 'summary'])\n",
    "    dataset = dataset.map(pad, 'article', ['input_ids'])\n",
    "    \n",
    "    dataset = dataset.batch(batch_size)\n",
    "\n",
    "    return dataset"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {
    "tags": []
   },
   "outputs": [],
   "source": [
    "batched_test_dataset = process_test_dataset(test_dataset, tokenizer, batch_size=1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[array([[ 101, 3173, 1290, 5381, 6205, 2128,  128, 3299,  129, 3189, 4510,\n",
      "        8020, 6381, 5442, 6948, 1132,  840, 8021, 6381, 5442,  129, 3189,\n",
      "         678, 1286,  794, 7362, 6205, 4209,  689, 1265, 2339, 7415, 1730,\n",
      "         749, 6237, 1168, 8024,  754,  128, 3299,  127, 3189, 7506, 1814,\n",
      "        3433, 3409, 1790,  759,  678,  752, 3125,  704, 6158, 1737, 4638,\n",
      "         125, 1399, 4771, 2339, 2347, 4802, 6371, 1059, 6956, 3647,  767,\n",
      "         511,  128, 3299,  127, 3189, 1119, 3247,  125, 3198, 8123, 1146,\n",
      "        8024, 7362, 6205, 4689, 7506, 1814, 3433, 3409, 1790, 4209, 4771,\n",
      "        2963, 6822,  676, 7339, 1762, 4209, 4771,  122, 1384,  759, 1298,\n",
      "        7023, 1277,  671, 2339,  868, 7481, 6822, 6121,  868,  689, 3198,\n",
      "        1355, 4495,  671, 6629, 4209,  680, 4482, 3172, 4960, 1139,  752,\n",
      "        3125, 8024,  125, 1399, 4771, 2339, 6158, 1737,  511, 3131, 3001,\n",
      "         782, 1447,  754,  127, 3189,  678, 1286, 1355, 4385,  671, 1399,\n",
      "        6158, 1737, 4771, 2339, 8024, 5307, 1059, 1213, 2843, 3131, 3187,\n",
      "        3126, 3647,  767,  511, 5307, 3131, 2844,  782, 1447, 1059, 1213,\n",
      "        3131, 3001, 8024, 3297, 1400,  671, 1399, 6878, 7410, 4771, 2339,\n",
      "        6890,  860, 2347,  754,  129, 3189, 8110, 3198, 8216, 1146, 2823,\n",
      "        1168,  511, 5635, 3634, 8024,  125, 1399, 6878, 7410, 4771, 2339,\n",
      "        6890,  860, 1059, 6956, 2823, 1168, 1285,  759, 8024, 3131, 3001,\n",
      "        2339,  868, 5310, 3338,  511, 4771, 3175, 3633, 1762,  976, 1587,\n",
      "        1400, 2339,  868,  511,  102]], dtype=int64), array(['渭南韩城县桑树坪井下事故中被困4名矿工全部死亡，遗体今日中午均被找到。'], dtype='<U35')]\n"
     ]
    }
   ],
   "source": [
    "print(next(batched_test_dataset.create_tuple_iterator(output_numpy=True)))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [],
   "source": [
    "model = GPT2LMHeadModel.from_pretrained('./gpt2_summarization/checkpoint-56250', config=config)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n",
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 新 华 网 西 安 7 月 8 日 电 （ 记 者 郑 凯 伦 ） 记 者 8 日 下 午 从 陕 西 煤 业 化 工 集 团 了 解 到 ， 于 7 月 6 日 韩 城 桑 树 坪 井 下 事 故 中 被 困 的 4 名 矿 工 已 确 认 全 部 死 亡 。 7 月 6 日 凌 晨 4 时 18 分 ， 陕 西 省 韩 城 桑 树 坪 煤 矿 掘 进 三 队 在 煤 矿 1 号 井 南 采 区 一 工 作 面 进 行 作 业 时 发 生 一 起 煤 与 瓦 斯 突 出 事 故 ， 4 名 矿 工 被 困 。 救 援 人 员 于 6 日 下 午 发 现 一 名 被 困 矿 工 ， 经 全 力 抢 救 无 效 死 亡 。 经 救 护 人 员 全 力 救 援 ， 最 后 一 名 遇 难 矿 工 遗 体 已 于 8 日 12 时 36 分 找 到 。 至 此 ， 4 名 遇 难 矿 工 遗 体 全 部 找 到 升 井 ， 救 援 工 作 结 束 。 矿 方 正 在 做 善 后 工 作 。 [SEP] [SEP] 盘 盘 跌 跌 近 跌 30 跌 幅 [SEP] 段 时 跌 长 7 铁 特 来 的 铁 [SEP] 铁 来 铁 铁 单 铁 多 铁 [UNK] 铁 平 铁 交 铁 头 铁 龙 铁 房 铁 四 铁 当 铁 。 铁 香 铁\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 参 考 消 息 网 8 月 19 日 报 道 < [UNK] > 外 媒 称 ， 白 宫 聘 雇 了 首 位 正 式 变 性 人 。 拉 菲 · 弗 里 德 曼 - 戈 尔 斯 潘 被 任 命 为 人 事 局 人 员 招 聘 部 主 任 ， 她 此 前 担 任 美 国 变 性 人 平 等 中 心 政 治 问 题 顾 问 。 据 俄 罗 斯 卫 星 网 8 月 19 日 援 引 美 联 社 报 道 ， 中 心 白 宫 解 释 说 ， 他 原 先 的 职 务 \" 反 映 了 奥 巴 马 政 府 的 价 值 观 \" 。 报 道 称 ， 现 任 美 国 总 统 奥 巴 马 支 持 给 予 变 性 人 与 其 他 美 国 人 平 等 的 权 利 。 早 些 时 候 ， 奥 巴 马 欢 迎 最 美 国 高 法 院 承 认 同 性 婚 姻 ， 之 后 白 宫 亮 起 了 象 征 变 性 人 的 彩 虹 色 。 此 外 ， 最 近 几 个 月 ， 美 国 各 机 构 ， 包 括 军 队 在 内 举 行 支 持 变 性 人 群 体 及 变 性 人 担 任 国 家 机 构 职 位 的 权 利 的 官 方 活 动 。 （ 图 片 来 源 ： 美 联 社 ） [SEP] 5 5 等 等 为 等 因 等 遭 遭 到 讯 等 被 等 名 等 身 等 不 等 原 材 等 或 上 报 价 格 等 物 等 已 不 同 时 的 不 受 理 盘 ， 因 陷 陷 入 深 陷 产 品\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 发 布 日 期 ： 2015 - 03 - 02 < [UNK] > 15 : 45 : 07 【 字 体 ： 】 白 山 市 气 象 台 2015 年 3 月 2 日 15 时 45 分 发 布 道 路 冰 雪 黄 色 预 警 信 号 ： 预 计 未 来 24 小 时 白 山 地 区 普 降 大 雪 ， 局 地 暴 雪 ， 将 形 成 对 道 路 交 通 影 响 较 为 严 重 的 道 路 积 雪 或 结 冰 ， 请 相 关 部 门 做 好 预 防 工 作 。 [SEP] [SEP] 盘 盘 涨 跌 跌 7 久 跌 近 7 [SEP] 持 续 跌 的 跌 长 7 持 久 的 7 半 流 动 计 时 半 来 近 6 半 患 多 交 多 后 半 的 时 间 铁 特 来 的 半 价 [SEP] 调\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 东 北 网 7 月 11 日 讯 ( 记 者 < [UNK] > 王 忠 岩 ) 11 日 4 时 许 ， 在 宽 城 街 与 花 园 街 口 发 生 一 起 交 通 肇 事 ， 两 名 老 人 被 车 辆 撞 倒 当 场 死 亡 ， 肇 事 车 辆 肇 事 后 离 开 现 场 。 据 知 情 人 王 某 介 绍 ， 11 日 4 时 10 分 左 右 ， 一 辆 黑 色 越 野 车 辆 沿 着 宽 城 街 从 先 锋 路 向 道 外 区 方 向 行 驶 ， 车 辆 行 驶 至 花 园 街 街 口 附 近 时 ， 该 车 辆 将 一 男 一 女 两 名 年 约 60 岁 左 右 的 老 人 撞 倒 后 离 开 现 场 。 经 120 急 救 人 员 确 认 两 名 倒 地 老 人 当 场 死 亡 。 目 前 ， 相 关 部 门 正 在 通 过 技 术 手 段 寻 找 肇 事 车 辆 ， 该 事 件 正 在 进 一 步 调 查 处 理 中 。 [SEP] 6 6 ( 6 记 录 [SEP] 特 特 进 特 [UNK] 特 香 [UNK] 香 。 特 [SEP] 7 特 白 特 美 特 文 特 宝 宝 特 机 会 特 来 特 性 特 雷 特 大 特 导 特 的 特 里 特 厕 特 航\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 7 月 30 日 下 午 ， 距 离 王 黄 琦 嘉 回 国 的 时 间 仅 5 天 ， 王 成 武 夫 妇 却 突 然 收 到 一 个 噩 耗 ： 女 儿 死 在 泰 国 。 随 后 ， 他 们 强 忍 悲 怆 赴 泰 处 置 此 事 ， 女 儿 所 在 的 泰 国 大 学 告 诉 他 们 ， 该 生 是 因 学 业 压 力 和 家 庭 问 题 跳 楼 自 杀 。 然 而 ， 王 成 武 夫 妇 却 发 现 ， 案 件 破 绽 百 出 ， 女 儿 死 因 成 谜 ， 他 们 罗 列 出 19 个 疑 点 ， 希 望 还 原 事 实 真 相 ， 并 得 到 经 济 赔 偿 。 蹊 跷 < [UNK] > 女 儿 回 国 前 5 天 遭 遇 不 幸 王 黄 琦 嘉 今 年 21 岁 ， 就 读 于 云 南 某 学 院 ， 2013 年 6 月 24 日 前 往 泰 国 的 一 所 大 学 进 行 为 期 2 年 的 学 习 。 按 照 计 划 ， 王 黄 琦 嘉 应 于 8 月 4 日 回 国 ， 她 的 返 昆 机 票 早 在 6 月 份 就 已 订 好 ， 7 月 29 日 也 顺 利 地 办 好 了 签 证 。 7 月 30 日 ， 距 离 王 黄 琦 嘉 回 国 还 有 5 天 ， 2 名 派 出 所 民 警 来 到 王 黄 琦 嘉 家 ， 让 王 成 武 意 识 到 事 情 不 妙 。 [UNK] 警 察 确 定 身 份 后 ， 记 下 我 们 的 工 作 单 位 和 电 话 号 码 就 走 了 ， 说 不 清 楚 发 生 了 什 么 事 ， 只 是 受 委 托 来 问 电 话 号 码 。 [UNK] 王 成 武 说 ， 他 隐 约 意 识 到 女 儿 出 事 了 。 警 察 走 后 ， 他 马 上 给 女 儿 打 电 话 ， 但 电 话 始 终 没 人 接 听 。 最 后 ， 他 无 奈 地 给 女 儿 的 同 学 打 去 电 话 ， 得 知 了 这 一 噩 耗 。 随 后 ， 其 女 儿 之 前 就 读 的 中 国 大 学 的 一 名 老 师 打 来 电 话 ， 证 实 女 儿 于 30 日 凌 晨 5 点 左 右 死 亡 的 消 息 ， 并 请 他 们 尽 快 赴 泰 国 处 理 此 事 。 8 月 2 日 ， 王 成 武 连 同 一 众 亲 属 抵 达 泰 国 ， 并 第 一 时 间 与 中 国 驻 泰 大 使 馆 联 系 。 随 后 几 天 时 间 里 ， 他 们 在 相 关 人 员 的 陪 同 下 ， 对 女 儿 死 亡 现 场 和 宿 舍 外 围 情 况 进 行 察 看 ， 王 黄 琦 嘉 尸 体 被 发 现 时 ， 躺 在 一 个 排 水 道 里 。 他 们 听 取 警 方 的 案 情 介 绍 ， 并 观 看 警 方 拍 摄 的 照 片 和 监 控 录 像 ， 同 时 与 校 方 进 行 交 涉 。 7 日 上 午 ， 王 黄 琦 嘉 就 读 的 这 所 泰 国 大 学 一 名 工 作 人 员 告 知 ， 而 他 们 随 后 也 从 警 方 了 解 到 ， 王 黄 琦 嘉 属 自 杀 。 随 后 ， 事 件 并 没 有 进 一 步 发 展 。 而 王 成 武 夫 妇 身 体 状 况 越 来 越 差 ， 无 奈 之 下 ， 他 们 只 能 对 王 黄 琦 嘉 遗 体 进 行 火 化 ， 并 于 8 日 启 程 回 国 。 回 忆 < [UNK] > 死 前 数 小 时 还 和 父 亲 聊 微 信 按 照 王 黄 琦 嘉 就 读 的 泰 国 大 学 所 发 的 死 亡 通 知 ， 王 黄 琦 嘉 是 因 为 学 业 压 力 和 家 庭 问 题 想 不 开 跳 楼 自 杀 。 [UNK] 她 性 格 开 朗 、 乐 观 、 积 极 向 上 [UNK] [UNK] [UNK] 王 成 武 说 ， 他 始 终 无 法 接 受 女 儿 自 杀 身 亡 消 息 ， 女 儿 出 国 留 学 期 间 ， 几 乎 每 天 都 和 家 里 打 一 通 电 话 。 29 日 晚 上 的 电 话 里 ， 她 告 诉 母 亲 正 准 备 和 同 学 去 散 步 。 回 到 宿 舍 后 ， 她 还 与 父 亲 通 过 微 信 聊 到 凌 晨 1 点 半 左 右 。 微 信 中 ， 她 向 父 亲 倾 述 了 一 些 交 友 方 面 的 烦 恼 。 [UNK] 我 就 一 直 安 慰 她 ， 并 没 有 意 识 到 有 [SEP] [SEP] 盘 盘 涨 跌 跌 7 盘 跌 30 盘 ， 跌 成 盘 成 跌 [SEP] 持 续 下 跌 出 7 7 战 术 成 交 战 四 7 [SEP] 的 7 半 来 7 时 7 文 7 周 来 6 时 计 来 近 7\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 新 浪 体 育 < [UNK] > 2014 - 12 - 13 < [UNK] > 14 : 09 显 示 图 片 尼 克 杨 今 夜 3 分 逆 天 < [UNK] > 北 京 时 间 12 月 13 日 消 息 ， 洛 杉 矶 湖 人 在 客 场 经 过 加 时 赛 以 112 比 110 险 胜 圣 安 东 尼 奥 马 刺 ， 当 所 有 人 都 把 焦 点 集 中 在 科 比 能 否 在 历 史 得 分 榜 上 超 越 乔 丹 的 时 候 ， 尼 克 - 杨 站 出 来 抢 镜 了 ， 他 用 出 色 的 进 攻 表 现 带 动 球 队 ， 用 一 记 三 分 准 绝 杀 带 给 湖 人 胜 利 。 这 个 夜 晚 ， 杨 就 是 湖 人 的 神 ， 这 个 星 球 上 的 确 没 有 人 能 在 一 对 一 的 情 况 下 防 住 他 。 马 刺 是 联 盟 中 防 守 最 出 色 的 球 队 ， 如 果 能 在 马 刺 面 前 飙 下 高 分 ， 杨 就 更 能 体 现 自 己 的 价 值 。 从 替 补 出 场 的 那 一 刻 起 ， 杨 就 动 力 十 足 ， 他 的 进 攻 状 态 奇 佳 ， 连 续 在 外 线 投 中 三 分 。 全 场 杨 14 投 9 中 ， 三 分 球 9 投 6 中 ， 5 罚 全 中 ， 得 到 全 场 最 高 的 29 分 。 虽 然 其 他 数 据 并 不 出 彩 ， 但 仅 凭 借 得 分 和 三 分 球 ， 杨 就 足 以 成 为 这 场 比 赛 中 最 耀 眼 的 球 员 。 在 加 时 赛 还 剩 下 7. 4 秒 时 ， 他 面 对 吉 诺 比 利 强 行 投 中 的 那 记 三 分 球 ， 直 接 帮 助 湖 人 从 圣 安 东 尼 奥 带 走 胜 利 。 像 加 时 赛 还 剩 下 7. 4 秒 的 那 记 强 投 三 分 ， 杨 本 场 比 赛 还 有 不 少 次 类 似 的 进 攻 ， 大 部 分 情 况 下 他 都 把 球 打 进 了 。 尽 管 马 刺 的 防 守 很 努 力 ， 并 且 大 部 分 时 间 都 没 有 失 位 ， 但 这 个 夜 晚 的 杨 手 感 火 热 ， 篮 筐 在 他 眼 里 就 象 海 洋 一 般 宽 广 ， 他 的 投 篮 命 中 率 极 高 。 当 杨 能 够 把 各 种 不 合 理 的 进 球 打 进 时 ， 湖 人 的 竞 争 力 就 变 得 更 强 ， 这 在 今 天 的 比 赛 中 得 到 充 分 体 现 。 杨 在 比 赛 中 的 前 5 个 三 分 球 都 投 进 的 时 候 ， 科 比 脸 上 也 浮 现 出 不 可 思 议 的 表 情 ， 他 甚 至 从 板 凳 上 站 起 来 挥 舞 着 毛 巾 为 杨 喝 彩 ， 能 够 让 科 比 都 站 起 来 为 自 己 欢 呼 ， 杨 的 表 现 有 多 么 出 色 就 可 见 一 斑 。 本 赛 季 湖 人 迎 来 科 比 的 复 出 ， 但 他 们 很 清 楚 仅 仅 依 靠 科 比 是 不 够 的 ， 球 队 需 要 其 他 球 员 能 给 科 比 帮 助 ， 最 被 看 好 的 人 就 是 杨 。 不 论 是 夏 天 训 练 ， 还 是 季 前 的 训 练 营 ， 杨 都 表 现 出 良 好 的 状 态 ， 他 在 场 上 也 用 表 现 赢 得 科 比 的 称 赞 ， 同 时 两 人 还 不 断 对 飙 垃 圾 话 ， 其 中 杨 说 得 最 多 的 一 句 就 是 ： [UNK] 这 个 世 界 没 有 人 能 一 对 一 防 住 我 ， 没 有 人 ！ [UNK] 就 这 场 比 赛 的 表 现 来 看 ， 杨 真 的 没 有 说 错 ， 这 个 世 界 上 没 有 人 能 在 一 对 一 的 情 况 下 防 住 他 。 那 记 准 绝 杀 的 三 分 球 ， 吉 诺 比 利 已 经 防 得 足 够 努 力 ， 他 的 干 扰 已 经 到 了 极 限 ， 可 杨 还 是 能 够 把 球 投 进 ， 并 且 还 试 图 去 制 造 吉 诺 比 利 的 犯 规 来 尝 试 打 4 分 ， 杨 再 一 次 向 人 们 展 现 了 其 超 强 的 进 攻 能 力 。 杨 拥 有 不 俗 的 得 分 能 力 ， 可 他 却 拿 不 到 一 份 大 合 同 ， 原 因 就 是 他 太 喜 欢 单 打 。 现 在 的 [SEP] [SEP] 盘 盘 涨 跌 跌 7 盘 跌 30 盘 ， 跌 成 盘 成 跌 [SEP] 持 续 下 跌 出 7 7 战 术 成 交 战 四 7 [SEP] 的 7 半 来 7 时 7 文 7 周 来 6 时 计 来 近 7\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 【 摘 要 】 < [UNK] > 尽 管 凶 手 在 作 案 半 年 后 落 网 ， 但 由 于 尸 体 位 置 隐 蔽 ， 且 深 水 打 捞 难 度 极 大 ， 杭 州 警 方 历 时 2 年 多 先 后 4 次 展 开 搜 捞 行 动 ， 最 终 于 今 年 1 月 6 日 晚 成 功 打 捞 出 被 害 人 遗 体 ， 使 案 件 得 以 成 功 告 破 。 < [UNK] > 第 一 次 在 千 峡 湖 打 捞 尸 体 的 场 景 浙 江 在 线 杭 州 1 月 26 日 讯 ( 浙 江 在 线 记 者 / 俞 雯 [UNK] < [UNK] > 通 讯 员 / 徐 佳 < [UNK] > 胡 学 军 < [UNK] > 首 席 编 辑 / 赵 洁 ) 位 于 丽 水 市 青 田 县 境 内 的 千 峡 湖 ( 滩 坑 水 库 ) ， 是 浙 江 省 内 仅 次 于 千 岛 湖 的 第 二 大 人 工 湖 。 湖 的 上 方 是 有 着 浙 江 第 一 高 桥 之 称 的 北 山 大 桥 ， 大 桥 所 在 湖 面 水 深 达 100 多 米 。 2012 年 8 月 31 日 晚 ， 内 蒙 古 男 子 张 某 被 人 关 进 铁 笼 后 ， 从 这 座 大 桥 上 抛 入 湖 中 ， 从 此 音 讯 全 无 。 尽 管 凶 手 在 作 案 半 年 后 落 网 ， 但 由 于 抛 尸 位 置 隐 蔽 ， 且 深 水 打 捞 难 度 极 大 ， 杭 州 警 方 历 时 2 年 多 先 后 4 次 展 开 搜 捞 行 动 ， 最 终 于 今 年 1 月 6 日 晚 成 功 打 捞 出 被 害 人 遗 体 ， 案 件 得 以 成 功 告 破 。 交 了 近 千 万 赎 金 依 旧 换 不 回 一 条 命 张 某 今 年 47 岁 ， 内 蒙 古 人 ， 在 当 地 开 办 有 大 米 加 工 厂 、 旅 馆 等 多 个 实 业 ， 在 圈 内 小 有 名 气 。 2010 年 ， 张 某 以 企 业 运 作 为 由 向 温 州 男 子 胡 某 借 款 2650 万 元 以 及 其 他 大 额 赌 债 。 2012 年 6 月 10 日 ， 胡 某 邀 请 张 某 到 杭 州 温 德 姆 酒 店 谈 判 还 钱 的 事 。 谈 判 未 果 后 ， 胡 某 指 示 孙 某 、 李 某 等 人 将 张 某 控 制 ， 并 于 当 晚 带 至 温 州 看 管 。 与 此 同 时 ， 胡 某 联 系 张 某 家 属 ， 索 要 5000 万 赎 金 ， 并 称 付 钱 即 放 人 。 家 属 报 警 后 ， 警 方 立 案 侦 查 ， 并 对 胡 某 展 开 追 踪 。 然 而 ， 胡 某 反 侦 察 意 识 很 强 ， 看 押 张 某 的 地 点 从 永 嘉 县 的 陡 门 乡 潘 [UNK] 村 换 至 上 塘 镇 新 民 村 ， 最 后 又 转 去 了 青 田 县 松 树 下 村 ， 不 断 变 换 。 胡 某 落 网 后 还 承 认 ， 他 对 张 某 不 停 地 威 胁 、 殴 打 ， 并 在 接 下 去 的 40 多 天 里 ， 多 次 联 系 张 的 家 属 ， 催 促 欠 款 。 家 属 当 时 透 露 ， 电 话 中 的 张 某 声 音 沙 哑 ， 说 自 己 快 不 行 了 。 为 了 救 人 ， 家 属 东 拼 西 凑 陆 续 支 付 胡 某 近 千 万 元 ( 其 中 620 万 元 已 查 实 ) ， 并 承 诺 会 继 续 凑 钱 。 然 而 ， 赎 金 交 了 ， 求 饶 也 求 了 ， 张 某 始 终 没 有 换 回 自 由 。 2012 年 8 月 31 日 晚 22 时 许 ， 胡 某 指 使 同 伙 将 张 某 关 进 事 先 准 备 好 的 铁 笼 子 内 ， 又 开 车 将 笼 子 从 青 田 县 松 树 下 村 运 送 至 50 公 里 外 的 千 峡 湖 附 近 ， 到 达 北 山 大 桥 后 ， 随 着 一 声 巨 响 ， 张 某 连 人 带 笼 坠 入 湖 底 。 嫌 犯 距 离 土 耳 其 100 米 被 遣 返 回 来 胡 某 ， 温 州 籍 ， 无 固 定 职 业 ， 早 年 曾 当 过 出 境 偷 渡 中 介 ， 俗 称 [UNK] 蛇 头 [UNK] ， 平 时 以 融 资 投 资 公 司 名 义 从 事 高 利 贷 放 贷 。 2011 年 以 来 ， 温 州 暴 发 民 间 借 贷 危 机 ， [SEP] [SEP] 盘 盘 涨 跌 跌 7 盘 跌 30 盘 ， 跌 成 盘 成 跌 [SEP] 持 续 下 跌 出 7 7 战 术 成 交 战 四 7 [SEP] 的 7 半 来 7 时 7 文 7 周 来 6 时 计 来 近 7\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 其 中 一 款 内 地 出 产 的 负 离 子 卫 生 巾 。 ( 图 片 来 源 于 网 络 ) < [UNK] > 参 考 消 息 网 3 月 24 日 报 道 < [UNK] > 港 媒 称 ， 一 批 内 地 制 造 的 卫 生 巾 在 黎 巴 嫩 机 场 被 扣 押 ， 原 因 是 该 批 货 品 被 检 测 出 辐 射 严 重 超 标 。 据 香 港 《 明 报 》 网 站 3 月 23 日 报 道 ， 这 30 箱 卫 生 巾 由 内 地 出 口 ， 20 日 途 径 迪 拜 到 达 黎 巴 嫩 ， 在 贝 鲁 特 [UNK] < [UNK] > [UNK] 国 际 机 场 进 行 扫 描 时 ， 设 备 显 示 箱 中 货 物 辐 射 严 重 超 标 。 测 试 结 果 显 示 ， 这 批 重 达 554 公 斤 的 卫 生 巾 ， 辐 射 量 超 标 了 35 倍 。 货 物 被 扣 押 ， 送 到 黎 巴 嫩 原 子 能 委 员 会 作 进 一 步 的 检 查 。 有 关 当 局 表 示 ， 检 查 了 几 箱 卫 生 巾 后 ， 发 现 它 们 的 辐 射 量 较 黎 巴 嫩 的 标 准 超 标 35 倍 。 而 这 批 卫 生 巾 是 传 说 中 的 [UNK] 负 离 子 卫 生 巾 [UNK] ， 卫 生 巾 公 司 网 站 表 示 ， 棉 网 膜 中 镶 有 负 离 子 芯 片 ， 使 用 时 会 发 射 出 高 浓 度 负 离 子 ， 以 纯 物 理 过 程 实 现 调 节 机 能 、 增 强 免 疫 力 、 消 毒 抗 菌 、 消 除 异 味 的 功 效 ， 亦 无 任 何 副 作 用 。 报 道 称 ， 目 前 还 未 清 楚 辐 射 是 来 否 来 自 卫 生 巾 的 负 离 子 ， 当 地 司 法 机 构 会 介 入 调 查 。 [SEP] 7 [SEP] 盘 盘 贵 贵 铁 铁 贵 ， 贵 6 贵 成 贵 重 贵 表 贵 4 贵 件 贵 珠 贵 情 贵 ： 贵 [UNK] 贵 州 贵 宁 贵 网 贵 阳 贵 7 贵 清 贵 [SEP] 贵 5 贵 2 贵 们\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.\n",
      "Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[CLS] 大 众 网 潍 坊 10 月 13 日 讯 （ 记 者 < [UNK] > 单 姗 < [UNK] > 通 讯 员 < [UNK] > 周 显 江 < [UNK] > 赵 力 智 ） 日 前 ， 诸 城 四 少 年 沉 溺 于 网 络 和 电 玩 游 戏 ， 效 仿 暴 力 电 子 游 戏 情 景 ， 白 天 骑 摩 托 车 抢 劫 寻 求 刺 激 ， 年 龄 最 大 的 刘 某 只 有 19 岁 ， 其 余 三 人 年 仅 13 岁 。 四 少 年 白 天 骑 摩 托 车 抢 劫 < [UNK] > 9 月 22 日 中 午 12 点 30 分 ， 潍 坊 诸 城 市 石 桥 子 镇 臧 某 和 孙 某 骑 电 动 车 行 驶 至 诸 城 市 石 桥 子 镇 前 浩 [UNK] 村 前 ， 突 然 有 两 辆 摩 托 车 从 后 面 赶 上 ， 把 臧 某 和 孙 某 逼 到 路 边 停 下 。 < [UNK] > 从 两 辆 摩 托 车 上 下 来 四 名 少 年 ， 两 名 少 年 手 持 棒 球 棒 ， 一 名 少 年 手 持 伸 缩 鞭 ， 四 名 少 年 让 臧 某 和 孙 某 把 钱 和 手 机 交 出 来 。 臧 某 还 以 为 四 名 少 年 开 玩 笑 ， 就 笑 着 说 不 要 开 玩 笑 了 自 己 还 有 事 ， 见 臧 某 没 把 自 己 放 在 眼 里 ， 其 中 一 少 年 发 怒 了 ， 手 持 棒 球 棒 将 臧 某 的 电 动 车 前 篮 打 破 。 < [UNK] > 臧 某 和 孙 某 这 才 意 识 到 ， 这 四 名 少 年 不 是 开 玩 笑 而 是 真 抢 劫 ， 他 俩 把 手 机 和 1000 元 现 金 乖 乖 地 交 出 ， 四 少 年 拿 到 手 机 和 现 金 后 骑 摩 托 车 扬 长 而 去 。 < [UNK] > 民 警 走 访 途 中 抓 获 两 抢 劫 少 年 10 月 9 日 下 午 5 点 10 分 ， 诸 城 市 公 安 局 石 桥 子 派 出 所 教 导 员 王 金 吉 、 副 所 长 卢 金 生 、 协 勤 人 员 付 斌 到 诸 城 市 石 桥 子 镇 大 朱 苏 铺 社 区 走 访 途 中 ， 发 现 一 辆 白 色 250 摩 托 车 停 在 路 边 ， 车 边 有 两 名 少 年 ， 行 为 非 常 可 疑 。 王 金 吉 三 人 立 即 停 车 对 两 名 少 年 进 行 盘 查 ， 两 名 少 年 不 肯 面 对 民 警 ， 背 对 着 民 警 不 说 话 。 民 警 继 续 盘 查 时 ， 两 名 少 年 分 头 跑 进 路 边 的 玉 米 地 里 ， 王 金 吉 三 人 迅 速 追 赶 ， 王 金 吉 追 赶 一 人 ， 卢 金 生 和 付 斌 追 赶 另 一 人 。 恰 逢 秋 收 之 时 ， 玉 米 杆 有 两 米 多 高 ， 稍 有 不 慎 就 会 跑 丢 ， 王 金 吉 三 人 全 力 追 赶 ， 最 终 在 玉 米 地 里 将 两 名 少 年 当 场 抓 获 。 经 审 讯 ， 两 名 少 年 刘 某 、 李 某 对 结 伙 他 人 白 天 骑 摩 托 车 抢 劫 、 抢 夺 、 盗 窃 的 犯 罪 事 实 供 认 不 讳 。 根 据 刘 某 和 李 某 的 交 代 ， 民 警 在 诸 城 市 石 桥 子 镇 某 网 吧 内 将 另 外 两 名 抢 劫 少 年 高 某 、 马 某 成 功 抓 获 。 受 暴 力 游 戏 影 响 寻 求 刺 激 四 名 少 年 均 为 诸 城 市 石 桥 子 镇 人 ， 都 是 [UNK] 90 后 [UNK] 出 生 的 ， 年 龄 最 大 的 刘 某 只 有 19 岁 ， 其 余 三 人 年 仅 13 岁 。 刘 某 初 中 毕 业 后 辍 学 在 家 ， 经 常 出 入 游 戏 机 室 和 网 吧 ， 沉 溺 于 网 络 和 电 玩 游 戏 ， 竟 仿 暴 力 电 子 游 戏 情 景 ， 白 天 骑 摩 托 车 抢 劫 寻 求 刺 激 。 自 今 年 9 月 份 以 来 ， 四 名 少 年 结 伙 骑 摩 托 车 窜 至 诸 城 市 贾 悦 镇 、 石 桥 子 镇 抢 劫 作 案 2 起 、 窜 至 石 桥 子 镇 抢 夺 1 起 、 窜 至 水 上 公 园 盗 窃 摩 托 车 3 辆 ， 盗 窃 其 他 物 品 2 起 ， 涉 案 价 值 2 万 余 元 。 目 前 ， 犯 罪 嫌 疑 人 刘 [SEP] [SEP] 盘 盘 涨 跌 跌 7 盘 跌 30 盘 ， 跌 成 盘 成 跌 [SEP] 持 续 下 跌 出 7 7 战 术 成 交 战 四 7 [SEP] 的 7 半 来 7 时 7 文 7 周 来 6 时 计 来 近 7\n",
      "[CLS] 齐 鲁 网 讯 < [UNK] > 近 日 随 着 山 东 电 视 生 活 频 道 《 天 生 拍 档 》 的 热 播 ， 来 自 山 东 济 南 的 35 岁 [UNK] 少 女 辣 妈 [UNK] 赵 一 霖 瞬 间 成 了 网 络 红 人 ， 关 于 其 整 容 的 各 种 质 疑 之 声 也 随 之 而 来 。 更 有 自 称 [UNK] 知 情 人 [UNK] 网 友 爆 出 其 整 容 前 后 对 比 照 片 。 对 此 ， 赵 一 霖 本 人 回 应 ： 质 疑 我 可 以 ， 别 诽 谤 我 ！ 网 友 爆 料 赵 一 霖 整 容 前 后 对 比 照 18 岁 的 赵 一 霖 生 活 中 的 赵 一 霖 和 儿 子 曾 经 体 重 飙 至 130 的 赵 一 霖 曾 经 体 重 飙 至 130 斤 的 赵 一 霖 对 于 [UNK] 知 情 人 [UNK] 爆 出 的 整 容 前 后 对 比 照 ， 赵 一 霖 回 应 她 根 本 不 认 识 图 左 的 姑 娘 。 她 自 称 自 己 本 身 就 是 双 眼 皮 ， 但 是 因 为 演 出 太 多 贴 胶 带 贴 的 变 四 层 眼 皮 ， 医 生 建 议 修 复 一 下 ， 所 以 去 年 她 做 了 一 个 双 眼 皮 手 术 ， 除 此 之 外 再 无 其 他 。 赵 一 霖 表 示 ， 她 带 儿 子 来 参 加 节 目 本 来 是 想 传 递 一 种 辣 妈 精 神 ， 给 大 家 带 来 一 些 正 能 量 ， 没 想 到 却 被 网 友 在 眼 睛 上 做 文 章 ， 感 觉 很 无 语 。 赵 一 霖 还 给 记 者 发 来 了 她 18 岁 的 照 片 ， 瓜 子 脸 大 眼 睛 身 材 姣 好 ， 和 现 在 的 她 容 貌 变 化 不 大 ， 只 是 有 了 一 些 岁 月 的 痕 迹 。 她 强 调 辣 妈 重 要 的 不 是 脸 ， 而 是 心 态 。 同 时 也 自 爆 在 上 学 时 期 她 的 体 重 也 曾 飙 至 130 斤 ， 那 时 候 的 她 比 现 在 的 脸 大 一 圈 ， 但 是 通 过 运 动 减 肥 ， 加 上 工 作 忙 碌 ， 瘦 下 来 之 后 脸 也 就 变 成 巴 掌 脸 ， 而 并 没 有 做 所 谓 的 瘦 脸 整 容 手 术 。 对 于 网 上 的 不 实 爆 料 赵 一 霖 表 示 很 无 语 ， 她 坦 言 不 想 被 娱 乐 ， 原 本 与 辣 妈 姐 妹 团 相 约 一 起 继 续 参 加 《 天 生 拍 档 》 复 赛 录 制 的 想 法 ， 也 在 看 到 种 种 谣 言 舆 论 后 破 灭 了 。 而 关 于 网 友 对 她 家 人 的 猜 测 ， 赵 一 霖 回 应 孩 子 的 父 亲 性 格 内 向 ， 不 喜 欢 外 场 和 综 艺 娱 乐 ， 所 以 她 不 想 因 为 节 目 与 家 人 牵 扯 太 多 ， 影 响 夫 妻 感 情 。 面 对 频 繁 参 加 综 艺 选 秀 节 目 录 制 ， 是 否 是 为 儿 子 进 入 演 艺 圈 铺 路 的 质 疑 ， 赵 一 霖 表 示 自 己 并 没 有 这 样 的 打 算 ， 儿 子 现 在 喜 欢 打 鼓 和 画 画 ， 她 也 会 尊 重 儿 子 自 己 选 择 。 [SEP] 6 [SEP] 多 多 出 出 现 有 出 有 有 铁 铁 特 铁 路 铁 。 铁 四 6 铁 贵 铁 7 铁 4 铁 ， 铁 厕 铁 产 铁 卫 铁 5 铁 情 铁 房 铁 交 通 铁 列 铁 轨 铁 6\n"
     ]
    }
   ],
   "source": [
    "model.set_train(False)\n",
    "i = 0\n",
    "for (input_ids, raw_summary) in batched_test_dataset.create_tuple_iterator():\n",
    "    output_ids = model.generate(input_ids, max_new_tokens=50, num_beams=5, no_repeat_ngram_size=2)\n",
    "    output_text = tokenizer.decode(output_ids[0].tolist())\n",
    "    print(output_text)\n",
    "    i += 1\n",
    "    if i == 10:\n",
    "        break"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.19"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}
